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(54) Prozessor mH Pipelining-Aufbau 

(57) Prozessor mit Pipelining-Aufbau. insbesondere 
mit superskalarer Archttektur, mit einer konf igurierbaren 
Logikeinheit, einem Instruktionsspeicher, einer Deko- 
diereinheit, Interfacemitteln, einem Programmable 
Structure Buffer, einem Integer/Address Instruction Buf- 
fer, einer zur VerknQpfung der InhaHe des Integer- Regi- 
ster-Files als Functional Unit with Programmable 
Structures ausgefuhrte, multiplexgesteuerte s-Paradig- 
men Unit (s-Unit) mit einer Vielzahl von durch Multiple- 
xern verbundenen Datenverbindungen, wobei diese s- 
Unit zur dynamischen NeukDnfiguration/Programmie- 
rung wahrend der Laufzert des Programms mit einer 
programmierbaren Hardwarestruktur versehen ist, und 
wobei innerhalb der Functional Unit, eine Mehrzahl von 
Arithmetic-Units zur arithmetischen und/oder logischen 
VerknQpfung zweier Operanden auf zwei Eingangsbus- 
sen zu einem Ergebnis auf einem Ausgangsbus, eine 
Mehrzahl von Compare-Units mit zwei Eingangsbussen 
und einem Ausgangsbit, eine Mehrzahl von Multiple- 
xern mit einer Mehrzahl von Eingangsbussen und an 
Oder zwei Ausgangsbussen, die zwischen den Arithme- 
tic-Units den Compare- Units und dem Register-Rle vor- 
gesehen sind, sowie eine Mehrzahl von Demultiplexern 
mit einem Eingangsbit und einer Mehrzahl von Aus- 
gangsbits vorhanden sind. 
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Beschreibung 

Die Erfindung betrifft einen Prozessor rnit Pipeling- 
Aufbau, insbesondere mit superskalarer Architektur 
nach dem Oberbegriff des Hauptanspruchs. s 

Diese Mikroarchitekturen soflen den hochsten Grad 
an Parallelitat auf Instruktionsniveau in Mikrocomputern 
realisieren. 

Die zentralen Recheneinheiten in Mikrocomputern 
bestehen hauptsachlich aus dem Prozessor, der im fol- w 
genden als einzeistehender Prozessor zu verstehen ist. 
z. B. als Mikroprozessor, der nicht Bestandteil eines 
Mikroprozessorsystems ist Oder fur den diese Zughorig- 
keit keine RoiJe im Sinne einer Instruktionsparallelitat 
spielt. is 

Diese Prozessoren sind im allgemeinen nach dem 
von-Neumann-Modell konzipiert. Wahrend dieses 
Modell fur die Trennung von Code- und Datenspeicher- 
bereich im Harvard-Modell aufgehoben wird (dort wer- 
den diese Speicher getrennt und mit verschiedenen 20 
Zugriffswegen erreicht), gelten sowohl im von-Neu- 
mann-wie im Harvard-Modell mit ihren vielen Modrfika- 
tionen und Varianten die strenge Abarbeitungs- und 
Ergebnissequenzialitatdes Befehisflusses. Ausnahmen 
von diesem Model! bilden die DatenfluGrechner, die 25 
vom DatenfiuB gesteuert arbeiten, also nicht vom Kon- 
troll-FluB. 

Unter Beibehaltung der sequentiellen Bearbeitung 
des Befehlsstroms hat die EinfGhrung sogenannter 
RISC-Architekturen, die zunachst nur eine Reduzierung 30 
des Instruktionssatzes zur Vereinfachung des Prozes- 
sordesigns beinhaltete, eine Heranfuhrung der 
Geschwindigkeit auf einen Befehl pro Systemtakt des 
Prozessors erzeugt. Dies wurde durch den Ersatz eines 
Mikroprogramms im Prozessor durch fest verdrahtete 35 
Hardware sowie durch umfangreiche Pipelining-Ma3- 
nahmen erreicht Trotz einer schetnbaren Parallelitat 
innerhalb des Prozessors wurde die maximale Befehls- 
rate mit einer Instruktion pro Takt und die Bearbeitungs- 
und die Ergebnissequenzialitat erhalten. 40 

Weiter ist zum Stand der Technik die US-Patent- 
schrift 5 361 373 zu nennen, die an dynamisch konf igu- 
rierbares Gate-Array beschreibt. und eine Veroffent- 
iichung 'Highperformance computing using a reconfigu- 
rabie accelerator' in "CONCURRENCY: Practice and 45 
Experience. Vol. 8 (6). 429 443 (July-August 1996)". 
Letztere beschreibt einen rein en Coprozessor, der eine 
rekonfigurierbare Arithmetisch-logische Einheit (rALU) 
umfaSt, die zu Programmbeginn (!) komplett geladen 
wird. um dann besondere Schleifen eines Programms so 
schnell abzuarbeiten. Dies erfordert einen groGen Auf- 
wand beim Compiler. Durch seine komplette Beschreib- 
barkeit erhait eine solche Recheneinheit wesentiich 
komplexere Befehle. Eine Neucompilierung ist unum- 
ganglich. 55 

Die Erfindung hat sich nunmehr die Aufgabe 
gestellt. eine hohere Parallelitat bei der Verarbeitung zu 
erreichen, wodurch der Mikrocomputer seine Verarbei- 



tungsgeschwindigkeit steigem kann. 

AJIerneueste Entwicklungen aus dem letzten Jahr 
im Sektor der Prozessoren -erreichen eine Bearbei- 
tungsgeschwindigkeit mit durchschnittlich mehr als 
einer Instruktion pro Takt. Diese als 'superskalar* 
bezeichneten Prozessoren, die sowohl als RISC wie 
auch als CISC-Architektur (Complex Instruction Set 
Computer) anzutreffen sind, bieten damit ein Mafl an 
Geschwindigkeit, das eine sequentielle Bearbertungs- 
reihenfolge nicht mehr zula(3t. Durch umfangreiche 
Ma3nahmen im inner en Aufbau der Prozessoren wer- 
den mehrere Instruktionen und die damit verbundenen 
Aktionen parallel zueinander ermoglicht, wobei die 
Ergebnisse sowie die Unterbrechungsfahigkeit im 
Sinne einer sequentiellen Bearbeitung sichergestellt 
werden. 

Als Beispiel einer solchen Mikroarchitektur eines 
superskalaren Prozessors ist die Veroffentlichung "Pro- 
ceedings of the IEEE", Volume 83, Nr. 12, S. 1609, 
James E. Smith mit dem Tit el "The Microarchitecture of 
Superscalar Processors" zu nennen. Diese Veroffentli- 
chung bietet einen Oberblick uber das Arbeiten super- 
skalarer Prozessoren. 

Ein sich direkt daran anschlieRendes Paper auf S. 
1625 im gleichen Heft der gleichen Zeitschrift "Compiler 
Technology for Future Microprocessors". Wen-Mai W. 
Hwu et al, beschreibt die zugehOrigen Compiier-Tech- 
nologien. 

Allen Neuentwicklung gem ein ist jedoch, da 6 die 
Ergebnissicherung, die gleichbedeutend ist mit der Ein- 
haltung der Ergebnissequenzialitat. die Erkennung und 
Auflosung von reallen und virtuellen Storungen, soge- 
nannten Hazards, beeinhattet, die durch die Verarbei- 
tungsparallelrtat auf Instruktionsebene entstehen. Der 
einzige reale Hazard besteht dabei in dem "Read-After- 
Write" (RAW), da ein Wert als Ausgangsbasis fur eine 
Berechnung erst nach einem vorangegangenen Schrei- 
ben gelesen werden kann. Eine solche Sequenz kann 
nicht parallel zueinander bearbertet werden, wahrend 
die virtuellen Hazards "Write- After- Read" und "Write- 
After-Writ e" durch das sogenannte "Register Rena- 
ming" aufhebbar sind. 

Die superskalaren Prozessoren konnen mit Hilfe 
von spezietl konzipierten Assemblerprogrammen sowie 
einer entsprechenden Compilertechnolgie. die derartig 
optimierte Programme liefert, in bestmoglicher Ausnut- 
zung ihrer theoretischen Performance betrieben wer- 
den. 

GelOst wird die obige Aufgabe, die maximale 
Befehlsrate zu erhohen, durch einen Mikroprozessor 
mit den Merkmalen des Hauptanspruchs. Die Unteran- 
spruche geben vorteilhafte AusfQhrungsformen wieder. 

Insbesondere wird im nachfolgenden ein Mikropro- 
zessor beschrieben, bei dem die Bemuhungen der 
superskalaren Architektur fortgefuhrt und durch die Ein- 
fuhrung einer programmierbaren Struktur -auch als 
strukturale Programmierung bezeich net-so verbessert 
sind, daG bei Nutzung der jetzt vorhandenen Technolo- 
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gie eine erhebJiche hohere Bearbertungsgeschwindig- 
kert erzielt wird. Hierzu wird zunachst die Architektur 
erlautert, anschlieBend daraus resuttierende Assem- 
bler- und CompilermaSnahmen beschrieben und 
anschlieBend wird an einigen Beispielen der Geschwin- 
digkeitsgewinn durch die intensive ParaJlelitat der 
Instruktion zueinander berechnet 

Der zweite Vorteil liegt darin, da8 Read- After- Wrrte- 
Hazards in geeigneter Weise aufgelost werden konnen. 
Read-After-Wrrte bedeutet ja, daB auf ein Ergebnis 
nach Berechnung zugegrrffen werden muB, urn den 
werteren RechenfluB aufrechtzuerhaften. Im Fall der im 
folgenden beschriebenen s-Paradigmen-Unrt liegt die- 
ses Ergebnis jedoch vor, bevor es gespeichert wird, und 
es kann innerhalb der Struktur bererts mit richtigem 
Wert weiterbenutzt werden. Dies ist gleichbedeutend 
mit dem Gewinn eines Ausfuhrungstakts, der in der bis- 
herigen Variante zur Speicherung durchlaufen werden 
mOBte. 

Die neuartigen strukturellen MaBnahmen in den 
Vordergrund steilend. wird auch von einem s-Paradig- 
men-Rechner gesprochen bzw. einem s-Paradigmen- 
Modell. nach dem der Mikroprozessor arbeitet 

Beschreibunq des s-Paradigmen-Modells 

Das s-Paradigmen-Modell kann grundsatzlich auf 
die ausfuhrende Einheit innerhalb eines beliebigen Pro- 
zessors angewendet werden, da es sich ausschlieBlich 
in dieser Einheit von dem von-Neumann-Modell urrter- 
scheidet und der KbntroilfluB-basierte Ablauf der 
Befehlsholung, der gerade ein typisches Merkmal des 
von-Neumann-Modells ist, hiervon unberuhrt bleibt Um 
die Leistungsfahigkeit des Model! s jedoch deutlich 
erscheinen zu lassen. wird im folgenden ohne 
Beschrankung der Allgemeinheit das s-Paradigmen- 
Modell im Zusammenhang und im Vergleich mit einem 
superskaiaren Prozessor herkommlicher Bauart darge- 
stelrt. Dabei zeigt : 

Fig. 1 die typische Organisation eines ublichen 
superskaiaren Prozessors, 

Fig. 2 die Mikroarchitektur nach der Erfindung, 

Fig. 3 eine prinzipielle Struktur einer Functional 
Unit. 

Fig. 4 die Struktur eines Multiplexers, 

Fig. 5 einen Vergleich zweier Codes, 

Fig. 6 eine DatenfluBubersetzung fur Assembler- 
code, 

Fig. 7 einen C- Source-Code, 
Fig. 8 einen Assemblercode in 1 . Optimierung, 



Fig. 9 einen Kontrollgraph fur die Assemblierung, 

Fig. 10 den Assemblercode in 2. Optimierung, 

5 Fig. 1 1 den Assemblercode in 3. Optimierung und 

Fig. 12 eine DatenfluBubersetzung fur den Assem- 
blercode der Fig. 10. 
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Die Fig. 1 zeigt dabei den Aufbau eines superskaia- 
ren Prozessors bei bewuBter Fortlassung der Floating- 
Point- Einheit. Die im folgenden dargestellten Eigen- 
schaften der ausfuhrenden Einheit fur den Integer-Teil 
des Rechners lassen sich auf die Floating-Point-Unit 
1:1 ubertragen. 

Innerhalb des Prozessor werden der Integer-Regi- 
ster-File, die Functional Units und die Re-order-and 
Commit-Unit durch eine neue Einheit, die s-Unit, 
ersetzt. Diese Einheit wird im nachfolgenden naher 
erlautert Zusatzlich werden in einigen anderen Units 
Veranderungen notig, die nachfolg end ebenfafls 
beschrieben werden. Zunachst soil jedoch eine kurze 
Erlauterung der FunktionaJitaten in Fig. 1 erfolgen. 

Das Memory Interface 10 schafft die Verbindung 
zum externen Code- und Datenspeicherbereich (Haupt- 
speicher L-2-Cache etc. nicht dargestellt). Auf der Seite 
der Instruktionen werden diese in einen Instruktions 
Cache 14 mit einer Vordecodierung abgelegt. Die Vor- 
decodierung ist vorteil haft, falls zusatzliche Informatio- 
nen zur schnelleren Bearbeitung fur die nachfolgenden 
Stufen erzeugt werden sollen, sie kann ansonsten fbrt- 
gelassen werden. Die Instruktionen werden dann im 
Instruction Cache 14 mit einer Vordecodierung abge- 
legt Die Vordecodierung ist vorteilhaft, falls zusatzliche 
Informationen zur schnelleren Bearbeitung fur die nach- 
folgenden Stufen erzeugt werden sollen; sie kann 
ansonsten fortgelassen werden. Die Instruktionen wer- 
den dann im Instruction Cache 14 als unmrttelbaren 
Speicher vor der Bearbeitung und/oder im Instruction 
Buffer 16 gespeichert. womrt im letzteren Fall sie bereits 
in der Bearbeitung befindlich sind. Fig. 1 entspricht also 
dem Stand der Technik. 

Die darauf folgende 'Decode, Rename & Dispatch 
Unit' 1 8 verteilt innerhalb einer superskaiaren Architek- 
tur die Befehle auf mehrere ausfuhrende Teileinherten 
in einer Functional Unit 22 und ordnet Register ausdem 
Integer Register File 24 zu. Diese Zuordnung muB auf- 
grund des Register Renaming erfolgen, um virtuelle 
Hazards zu vermeiden. Die Functional Units 22 arberten 
ggf. eng mit einem Data Cache zusammen, umdie noti- 
gen Operanden laden zu kannen. Nach der parallelen 
Ausfuhrung mehrerer Instruktionen mussen die Ergeb- 
nisse, in den Registern stehend, neu geordnet Oder ins- 
besondere als gultig gekennzeichnet werden (Re-order- 
and-Commit-Unit). 

AbschlieBend sollte zu dem Model) noch erwahnt 
werden, daB die Behandlung von bedingten und unbe- 
dingten Verzweigungen (Conditional and Non-Co nditio- 
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nal Branches) auflerhalb des hier dargesteliten Teils 
abiauft. Hierzu werden Ma3nahmen z. B. 'Branch Pre- 
diction' (Vorhersage) mit einer prcbeweisen Ausfuhrung 
vorgesehen, die bei Nichterfullung zu VerzCgerungen 
fuhren. 5 

Die in der Fig. 1 grau hinterlegten. jedoch im Stand 
der Technik auf diese Art und Weise vorgesehenen 
Blccke werden nun, wie in der Fig. 2 dargesteilt, nach 
der Erfindung entsprechend anders aufgebaut 

Wie dargesteilt, werden eine Programmable Struc- 10 
ture Buffer 30, ein Integer/Address Instruction Buffer 32 
und eine Einheit mit Functional Units with Programma- 
ble Structure 34 neben dem Integer Register File 24 
vorgesehen. 

Das s-Paradigmen-Modell kennt dabei vier Klassen is 
von Maschinenbefehlen: 

Branch- und Jump-Befehle zur KorrtrolKluBsteue- 
rung, 

20 

Load-/Store-Befehle zum Datentransfer zwischen 
Registern und Speicherbereich, 

Arithmetische und logische Befehle zur Berech- 
nung, und 25 

sonstige Befehle wie No Operation, Wait, Stop, etc., 
die im weitesten Sinne auch der KontrollfluGsteue- 
rung dienen. 

30 

Wahrend die BefehlsWassen zur KontrollfluBsteue- 
rung wie bisher belassen und damit entsprechend dem 
Standard in superskalaren Rechnern ausgefOhrt wer- 
den, nehmen die Load/Store-Befehle und die arithme- 
tisch/logischen Befehle eine neue Stellung ein. 35 

Load/Store-Befehle werden entweder mit Hirfe 
einer oder mehrerer Load/Store- Pipeline(s) zum Daten- 
transfer zwischen dem Integer Register File 24 und dem 
Datenspeicher (Cache 36. Hauptspeicher) eingesetzt 
und dann auch wie bisher bearbeitet oder sie werden zu 40 
den arithmetiscMogischen Befehlen hinzugefugt und in 
das nun beschriebene Kernstuck des s-Paradigmen- 
Modells integriert. Die Entscheidung hieruber obliegt 
dem Systemdesigner der CPU. Move-Befehle hinge- 
gen, die einen Datentransfer zwischen den Registern 4s 
des Prozessors bewirken, gehdren grundsatzlich zu 
diesem Mode! I. 

Die arithmetisch/logischen Befehle (und die hinzu- 
gefuhrten Load/Store-Befehle) werden ihrer Program- 
mi ersequenz zufolge in eine Struktur von aufeinander- so 
fblgenden Hardwareverknupfungen ubersetzt. Zu die- 
sem Zweck bietet die Functional Unit im erf indungsge- 
maGen Mikrocomputer eine programmierbare Struktur 
und feste verdrahtete arrthmetisch/Iogische Verknup- 
fungen (so wie ggf. Zugriffsfunktionen wie Load/Store- 55 
Pipelines) an, die durch die Struktur miteinander ver- 
knupft werden kOnnen und in der Reihenfofge der Struk- 
turierung bearbeitet werden. 



Die entsprechende Funktionalitat wird in der Fig. 3 
erlautert. Dort werden die Teileinheiten der Functional 
Unit 22 und das Register File 24 (in der Fig. 3 grau hin- 
terlegt) durch eine Vielzahl von Datenverbindungen und 
Murtiplexern 40 verbunden. Die Datenverbindungen 
sind dabei als Busse mit der jeweiligen intemen Daten- 
busbreite ausgefOhrt (z. B. 32 Bit), eine Ausnahme bil- 
den die Condition Codes, die als Bit-Lertungen 
(gepunktet gezeichnet) implementiert sind. Innerhalb 
der Furrtional Unit existieren funf Typen von Teileinhei- 
ten: 

- Die Arithmetic Unit (AU. Typ A) 50; 51 . die nicht mit 
der herkfimmlichen Arithmetical Logical Unit (ALU) 
verwechselt werden soltte. Die AU 50; 51 enthalt 
eine oder wenige, dann konfigurierbare Verknup- 
fungen, beispielsweise die Moglichkeit, zwei Inte- 
gerzahlen zu addieren. Sie liefert ein Ergebnis an 
ihrem Ausgang, wenn die Eingange entsprechend 
beschaltet werden und dieses Ergebnis kann inner- 
halb des Schaltnetzes weiter verwendet werden. 
Die AU 50; 51 ist gekennzeichnet durch zwei Ein- 
gangsbusse und einen Ausgangsbus, ggf. durch 
eine Konfigurationsmdglichkeit (Auswahl der Ver- 
knupfung, im Extrerrrrall entsprechend einer ALU) 
und durch Konditionalbits. In einigen Fallen, bei- 
spielsweise bei der Multiplikation kann die Breite 
des Ausgangsbusses abweichen, urn die Berech- 
nungen zu ermoglichen. 

- Eine Compare Unit (CoU, Typ B) 52, die ebenfalls 
einem Multiplexer nachgeschaltet ist. Fur die 
bedingte AusfOhrung der Verknupfung werden hier 
Condition Code Bits durch einen konfigurierbaren 
Vergleich in der CoU 52 erzeugt Der Vergleich ia(3t 
sich bei Verwendung von drei Konfigurationsbits auf 
>.>=.«=,!=,==, TRUE oder FALSE einstellen. 
Kennzeichen der CoU sind zwei Eingangsbusse 
und ein Ausgangsbit sowie die Konfigurierbarkeit. 

Multiplexer (MulC, Typ C) 40, belegen die Eingange 
der AUs und der CoUs mit jeweils zwei Eingangs- 
werten in der vollen Verarbeitungsbreite. Hierfur 
benOtigen Sie eine Anzahl von Kortfigurierungsbits, 
die sich aus der Anzahl von Eingangen und den 
zwei Ausgangen ergeben. Kennzeichen fur MulC- 
Einhetten sind zwei Ausgangsbusse. 

Weiter sind Multiplexer (MulD, Typ D) 58 zu nennen, 
die vor dem Registerfile 24 vorgesehen sind. Fur 
die Belegung der Register mit den Ergebniswerten 
wird lediglich ein Ausgangsbus und damit auch nur 
die Halfte der Konfigurationsbits benotigt. Ein MulD 
unterscheidet sich daher vom MulC durch die 
Anzahl seiner Ausgangsleitungen. 

Letzlich sind noch die Demultiplexer (Demul. Typ E) 
46 zu nennen, die die Ergebnisse der Vergleiche 
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8 



(CoU) an entsprechende AU's weiterleiten. Jm 
Gegensatz zu den Muitiplexern 58. die eine Quel- 
lenauswahl vornehmen, liegt hier eine Zielauswahl 
vor. 

5 

Die Verbindungen zwischen den Teileinheiten kon- 
nen komplett oder teilweise ausgefGhrt sein. abhangig 
von der Anzahl der zur Verfugung stehenden Konf igura- 
tionsbits in der Gesamtheit. In einer Beispielarchitektur 
im nachsten Abschnitt wird eine vollstandige Verbind- io 
barkeit gezeigt sowie die Zahl der notwendigen Bits dar- 
aus berechnet 

Der Sinn der strukturierbaren Functional Unit, nach 
der Erfindung liegt nun darin, die Struktur entsprechend 
den Maschinenbefehlen in einem (Basis- oder Super) is 
Block eines Programms anzupassen. Derartige Blocke 
sind dadurch gekennzeichnet, dafl sie ohne (Basis- 
block) bzw. nur mit selten genutzten (Superbiock) Ver- 
zweigungen (Branch-Befehie) auskommen, also im 
KontrollfluB deterministisch oder wenigstens mit hoher 20 
Wahrscheinlichkeit bestimmbar sind. Auf die Problema- 
tik dieser Blocks und ihre Auswirkungen auf Assembler- 
und Compilertechnologie wird in ubernachsten 
Abschnitt "Konsequenzen ..." naher eingegangen. 

Die Programmierung erfolgt im s-Paradigmenmo- 2s 
dell durch das Laden von Konf igura tionsbits fur die Teil- 
einheiten. Diese werden im Programmable Sturcture 
Buffer zwischengespeichert und bei Bearbeitung des 
Blocks in die s-Unit § geladen, die dadurch entspre- 
chend strukturiert ist und den Block bearbeiten kann. 30 
Die Bearbeitung bezieht sich dabei lediglich auf die 
arithmetische und logischen VerknQpfungen zwischen 
Registerinhalten, ggf. auch mit Speicherinhatten (fells 
eine entsprechende Load/Store-Pipeline zur Verfugung 
stent), wahrend alie anderen Befehle, insbesondere 35 
Load/Store und KontrolffluBbefehle wie ublich ablaufen. 

Die Generierung der Konfigurationsbits kann ent- 
weder im Assembler erfolgen (Compiletime basierte 
Generierung), es ist aber auch prinzipiell moglich, sie in 
der CPU. etwa durch einen funktionell erweiterten Pro- 40 
grammable Structure Buffer zur Laufzeit erzeugen zu 
lassen (Runtime-basierte Generierung). 

Realisierunqsformen der Execute-Einheit des erfin- 
dungsaemagen Mikrocomputers 45 

Die Struktur der s-Unit S mit festverdrahteten AUs 
50; 51 sowie CoUs 52 und konfigurierbaren Wegen zwi- 
schen diesen Teileinheiten legt zunachst fest, da 8 die 
Multiplexer das programmierbare Element dieser Konf i- so 
guration darstellt. Die feste Verdrahtung insbesondere 
der AU's 50; 51 wurde gewahft, urn die Anzahl der zu 
ladenen Bits mOglichst gering zu halt en. In einer werte- 
ren Stufe der Flexibilisierung kfinnten auch die AUs 50; 
51 programmierbar sein, d. h. auf einfachen Strukturen ss 
wie NAND-Gattern oder Disjunktrven Normalformen 
(DNF) aufbauend realisiert sein. Damit ware eine 
nahezu beliebige Funktionalitat bereits in einer AU 50; 



51 integrtebar. 

Arithmetic Units 50; 51 beinharten beispielsweise 
falgende Funktionalrtaten: 

Arithmetische VerknQpfungen wie Addition, Sub- 
traktion. Multiplikation, Division, 

Logische Verknupfungen wie AND. OR, XOR, NOT, 
Komplemertt (Zweier-), 

Shift-Funktionen wie arithmetische oder logische 
Shifts nach rechts/links, 

Bedingte Daterrtransfers, abhangig von Eingangs- 
bits (2 Wege-Multip lexer, im Unterschied zu den 
MulC und MulD -Teileinheiten zur Laufzeit 
umschaltbar). 

Die Basis fur die Programmierung der Struktur. also 
der beiden Multiplexertypen, besteht in RAM-Zellen. 
Hiermtt ist eine sehr schnelie Konfigurierung gewahrlei- 
stet, wahrend andere Technologien wie EEPROM lan- 
gere Zeit benotigen und eher fur den Einsatz von 
programmierbaren AU's denkbar waren. Mit Hilfe von n 
Bits kdnnen dann 2 n Wege g esc halt et werden, so da 8 
fur einen MulC bei 32 Eingangen 2x5 Bits, fur einen 
MulD 5 Bits zur Konfigurierung notwendig waren. Die 
prinzipielle Struktur dieser Multiplexer ist in der Fig. 4 
dargestellt. 

In einer moglichen konkreten Modellarchitektur 
sind dann folgende Teileinheiten und Register imple- 
mentiert: 

vier Addierer (AU), bei denen durch ein Condition 
Code-Bit die Addition durchgefuhrt wird (TRUE) 
oder das erste Wort unverandert durchgelassen 
wird (FALSE), 

eine logische Einheit mit AND, OR. XOR und 
Zweier-Komplementbildung, konfigurierbar durch 2 
Bits (AU), 

ein Muttiplizierer (AU), 
ein Dividierer (AU), 

eine Shift-Funktionseinheit (AU), die mit Hilfe von 
zwei Bits auf links/rechts und arithmetisch/logisch 
konfiguriert wird, 

zwei dynamische Pfad-Murtiplexer, die durch ein Bit 
im Steuereingang einen der beiden Eingangsbusse 
am Ausgang anliegen lassen (AU). Diese Multiple- 
xer solhen nicht mit den Multiplexer Typ C Oder D 
verwechseft werden, da die hier vorgeschlagene 
Teileinheit die Auswahl dynamisch schaltet. 
sechs Vergleichseinheiten mit je einem Bitausgang 
konfigurierbar uber dret Bits auf acht Vergleichsar- 
ten (CoU) 52, 

zwfilf logische Register RO bis R11, die in einem 
Pool von beispielsweise 24 physikalischen Regi- 
stern per Register Renaming identifiziert werden, 
vier Konstantenregister CO bis C3. in denen die im 



so 
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Instructioncode codierten Kbnstanten wahrend der 
Bearbeitung eines Blocks gespeichert werden. 

Dies ergibt eine Gesamtheit von 32 zu verbindenen 
Teilen innerhalb der s-Unit S. Wird eine vollstandige s 
Verbindbarkeit gefordert, mussen die Multiplexer im 
wesentlichen mit funf bzw. 2 x 5 Bits konfiguriert wer- 
den. Zur Verbindung aller Einheiten werden 10 Multiple- 
xer Typ C, 1 2 vom Typ D und 6 Demultiplexer vom Typ E 
benetigt. Da angenommen wird, daB die Konditionie- 10 
rung durch Vergleichsoperationen sich nur auf AUs 
bezieht. benOtigen die Demultiplexer nur dret Bits zur 
Korrfiguration. Damit ergibt sich die Gesamtzahl der 
Korrfigurationsbits (fur Multiplexer und konfigurierbare 
AUs) zu 200 Bits. 75 

Das Modell kann zudem auf die Behandlung von 
Flags ausgedehnt werden, dies ist durch gesonderte 
AUs mit Auswerteeigenschaften mdglich. Um einen 
Oberlauf bei arithmetischen Operation en zu ver hinder n 
bzw. zu detektieren, sind genugend dimensionierte 20 
Datenbusse und entsprechende Auswerteeinheiten not- 
wendig, die aus Obersichtsgrunden fbrtgelassen wer- 
den. 

Konsequenzen des s-Paradiamen-Modells fur Maschi- 2s 
nenbefehle. Assembleroroorammieruna und Compiler- 
bau 

Der erfindungsgemaBe Mikrocomputer arbeitet 
sehr ahnlich zu superskalaren Architekturen, die auf der 30 
paralleien Instantiierung von ALUs basieren. Wichtig far 
die optimale Ausnutzung dieser Architektur ist die mOg- 
lichst groBe Biockbildung im Rahmen der Assemblerco- 
dierung. 

Hier wird als Basisblock eine Folge von Instruktio- 35 
nen verstanden, die keine Verzweigung durch beispiels- 
weise einen bedingten Branchbefehl beinhalten. 
Derartige BasisblScke sind bei herkOmmlichen Compi- 
lertechnologien eher relativ kurz, so da 3 die Ausnut- 
zung der internen Parallelitat gering bleibt. 40 

Derzeit sind mehrere Compilerstrategien in der Ent- 
wicWung, wie die obengenannte Verflffentlichung Smith 
zeigt, die eine verbesserte Nutzung versprechen. Eine 
Methodik bestebt in der Generierung von SuperWocks, 
die im RegeHall einer Schlerfe durchlaufen werden und 45 
die im Zusammenhang mit dieser Arbeit ebenfalls als 
geeignete Blocks angesehen werden. Wesentlich inter- 
essanter ist die Einfuhrung von konditionierten Befeh- 
len, die anhand eines Entscheidungsbits ausgefuhrt 
oder Qbersprungen werden. Dieses Entscheidungsbit so 
kann durch Vergleiche entstehen und ist dann kontroll- 
fluBbestimmend. also auch unter Randbedingungen 
Branch ersetzend wirksam. 

Ein Beispiel zum Einsatz solcher konditionierten 
Befehlsausfuhrungen. die "predicated execution'' kann 55 
durch die in der Fig. 5 dargestellte Sequenz in C und 
Assembler (Befehlsbedeutung vergl. Anhang A) gege- 
ben werden. 



Dieses Beispiel wird fur eine Pseudo-CPU gezeigt, 
die in herkfimmlicher Weise bei relativ optimal er Aus- 
nutzung von Registern eine bedingte Wertzuweisung 
Gbersetzt. Der hierbei auftretende Sprungbefehl ble 
(branch if less or equal) bedeutet jedoch ggf. eine Ver- 
zweigung im KorrtrollfluB, was bei der Implement! erung 
und Nutzung bedingter Befehlsausfuhrung nicht not- 
wendig ist. Hier wird ein Bit im Register p1 gesetzt, falls 
rO > 0 girt, ansonsten gelOscht und die bedingten movp- 
Befehle beziehen sich auf p1 und schlieQen sich gegen- 
seitig aus, so da 3 dies gut in nebenfaufige Hardware 
umzusetzen ist, bei der nur ein Pfad aktiv sein darf. 

Das kurze Beispiel kann dabei keineswegs als 
Beweis fur die Beschleunigung durch konditionierte 
Befehle gesehen werden; umfangreiche Arbeiten wie 
die von Smith (o.a.) haben jedoch ergeben, daB diese 
Maschinenbefehle sich auGerordentlich gunstig fur den 
Flu 13 innerhalb einer Execute-Einheit von super skala- 
ren Mikroprozessoren auswirken. Die Umsetzung in 
Hardware kann durch die dynamischen Multiplexer in 
Verbindung mit den Vergleichern erfblgen, wie in Fig. 6 
anhand der DatenfluBubersetzung fur Assembiercode 
dargesteltt ist. 

Die Obersetzung erfolgt durch Zuordnung eines 
Vergleichers 60, der fur "grOBer-als" kond'rtioniert ist, 
und eines dynamischen Multiplexers 62, der die Aus- 
wahl aus den beiden einflieBenden DatenstrOmen 
anhand des Vergl eichsbild vornimmt, zu diesem Aus- 
fOhrungsblock. Die Load/Store-Befehle verbleiben in 
der bisherigen Form und sind nicht dargestellt Zusdtz- 
lich muB das Register CO (fOr Konstanten) mit dem Ver- 
gleichswert, hier "0" geladen werden. 

Fur den Maschinenbefehlssatz des erfindungsge- 
maBen Mikrocomputers sind dann zusdtztich folgende 
Befehle angenommen: 

PEG (Dest), (Source), (Zielbit) (Gleichheit) 
PNE (Dest), (Source), (Zielbit) (Ungleichheit) 
PGE (Dest). (Source). (Zielbit) (grdBer oder 
gleich) 

PGT (Dest), (Source). (Zielbit) (grOBerals) 
PLE (Dest). (Source), (Zielbit) ( klei ner oder gl.) 
PLT (Dest). (Source). (Zielbit) (kleinerals) 

Eine Erweiterung dieses Befehlssatzes fur Setzen 
von Konditionsbits ist naturlich denkbar. Daneben mus- 
sen diese Konditionsbits auswertbar sein, was durch die 
Einfuhrung von bedingten Verschiebeund arithme- 
tisch/logischen Befehlen erfolgen kann. Im folgenden 
wird fur die Modellarchitektur des erfindungsgemaBen 
Mikrocomputers daher vorausgesetzt, daB alle Ver- 
schiebebefehle mit einer Kondition belegbar sind 
(movp) und daB die arithmetisch/logischen Befehle so 
ausgefuhrt werden, daB der 1. Verknupfungsoperand 
durchgelassen wird. falls die Bedingung nicht erfultt ist. 
Im Fall der 

addp (Ziel), (Operand_1), (Operand_2), 
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(Prediction-bit) 

VerknOpf ung wird also (Operand_1 > in das Zielregi- 
ster geladen, falls das (PrediccticnjDit) geloscht ist. 
ansortsten die Summe von • <Operand_1 ) und s 
<Operand_2 ). 

Die weiteren Methoden zur Steigerung des Durch- 
satzes in dem erfindungsgemaBen Mikrocomputer ent- 
sprechen denen fur super skalare Mikroprozessoren. 
Hierzu zahlen bezuglich der Programmierung in io 
Assembler bzw. C (als Beisptel fur eine Hochsprache): 

Nutzung der bedingten Ausfuhrung von Befehlen 
zur Schaffung von grOBeren Blocken ohne Kontroll- 
fluBstrukturen, 15 
Unrolling von Schleifen bis zum Maximum der Res- 
sourcen, 

Abhangigkeitsanalyse und Besertigung von Abhan- 
gigkeiten durch (Compile-Time-) Register Rena- 
ming. 20 

Nachdem dies zu einem Optimum fur eine super- 
skalare Architektur gefOhrt wurde, werden die vorhan- 
denen Bldcke erneut analysiert und in die strukturale 
Programmierung ubersetzt. Diese Clbersetzung kann 2$ 
zur Compilezeit erfolgen, wobei der Vorteil in der inten- 
siven Analyse ohne Benutzung von Silizium im Zielsy- 
stem zu sehen ist. Die strukturale Programmierung wird 
dabei durch die vorhandene Abhangigkeitsanalyse und 
vor allem die Besertigung erheblich unterstotzt. so da 3 30 
die Befehle in DatenflOsse und damit in die Struktur 
umsetzbar sind. Diese Struktur besitzt dann keine 
Zyklen oder Ruckkopplungen, die fur die Hardware- 
strukturierung bei asynchronem Design unbrauchbar 
ware. 35 

Der Performancegewinn ergibt sich ausder Ausnut- 
zung zweier Vorteile gegenuber einer "kJassischen" 
Architektur eines superskalaren Mikroprozessors. Die 
ALU, die innerhalb der bisnerigen Architektur vervief- 
facht wird. wird nunmehr aufgespalten, so da8 die Ein- 40 
zelteile unabhangig voneinander nutzbar sind. Unter 
der Annahme, daB die Laufzeit innerhalb der program- 
mierbaren Struktur so klein bleibt, daB die Ergebnisse 
unabhangig von dem DatenfluBweg innerhalb eines 
Takts vorliegen, ergibt dies eine im Schnitt bessere Aus- 4s 
nutzung und Weinere Ausfuhrungszeiten. 

Die Steuerung bzw. Bestimmung der Ausfuhrungs- 
zeit innerhalb der s-Unit nimmt jedoch ein en zentralen 
Punkt in der Hardwareimplementierung ein. Folgende 
Verfahren bieten sich hierzu an: so 

Die strukturaJ programmierbare wird so konzipiert 
und mrt dem maximal zulassigen Takt abgestimmt. 
daB die Laufzeit innerhalb der s-Unit fur jeden Fall 
so dimension! ert ist daB das Ergebnis nach einem ss 
Takt in den Registern speicherbar ist. 

Die Hardware, die in jedem Fall asynchron mitein- 



ander verknupft ist (eine Synchronisierung erfolgt in 
jedem Fall erst bei den Registern, weshalb auch 
eine Abhangigkeitsbeseitigung notwendig ist), lie- 
fert beim Durchlauf ein Ready-Signal mit, das die 
Ubernahme in die Register steuert Diese Form 
laBt ggf. hdhere Taktraten zu, wobei z. B. im Regel- 
fall ein Takt zum Durchlauf benc-tigt wird und in Aus- 
nahmefallen zwei Takte. 

Weiter soil im folgenden en Beispietprograrrun ana- 
lysiert. ubersetzt und fur eine superskalare Architektur 
optimiert werden. Die Geschwindigkeiten im Ablauf die- 
ses Maschinenprogramms werden dann im Vergleich 
zum erfindungsgemaBen Mikrocomputer dargesteltt. 
Dieses Beispiel stammt aus der oben genannten Verdf- 
fentlichung von J. Smith, um die Ergebnisse entspre- 
chend vergletchbar gestalten zu kOnnen. 

Beispielprogramm 

Das Zusammenwirken von Compilertechnologie 
und Moglichkeiten zur Parallelisierung durch die struk- 
turale Programmierung der Hardware kdnnen an einer 
einfachen C-Schlerfe demonstriert werden. Fur die 
Codegenerierung wird dabei einerseits ein superskala- 
rer Mikroprozessor zugrundegelegt, der mindestens 12 . 
Register, bedingte Anweisungen und zwei nebeniaufige 
ALUs, beide ausgestattet mit alien Fahigkeiten, besitzt, 
andererseits wird das oben vorgestellte Modell einer S- 
Unit genutzt. Bei diesem Vorgang werden folgende 
Schritte durchlauf en: 

1. Der C-Sourcecode wird mit Hilfe eines Compi- 
lers, der fur nichtsuperskalare Architekturen opti- 
miert, ubersetzt. 

2. Die BlockgrdBe wird durch den Ersatz von 
bedingten SprQngen durch bedingte Anweisungen 
erhOht. 

3. Je zwei Schleifen werden zu einer grCBeren 
Schleife zusammengefaBt (Loop Unrolling). 

4. Fur die gewonnene Schleife wird ein (Compile 
Time) Register Renaming mit Hilfe einer Abhangig- 
keitsanalyse durchgefuhrt. 

Fur alle Stufen der Optimierung wird der Grad der 
Parallelisierung bzw. die Anzahl der benOtigten Takte 
angegeben. fur die hcchste Stufe im Vergleich zwischen 
einer superskalaren Architektur bisheriger Bauart und 
einem erfindungsgemaBen Mikrocomputer. 

In der Fig. 7 ist der C-Sourcecode dargestellt. Das 
Programm besteht in einer Zuweisungsschleife an ein 
Array bfl in Abhangigkeit eines Arrays aQ, wobei hier 
besonders die Read- After- Write- Abhangigkeiten zu 
analysieren sind. 

Das Inter essante an diesem Code ist die Reihen- 
folge der Adressen, auf die jeweils zugegriffen wird, da 
die Zuweisung in einem Teil der Schleife b[t]+b[i+1] 
lautet und so mrt das zwerte Element des 1. Zugriffs 
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gleich dem ersten Element der zweiten Schleife ist. Die 
Ubersetzung des C-Sourcecodes mit einem optimieren- 
den Compiler, ausgelegt fur traditionelle Architekturen, 
ergibt dann das in der Fig. 8 dargestellte Assemblerli- 
sting. 5 

Der KontroIffluBgraph, wie er in der Fig. 9 darge- 
stellt ist, zeigt die Wege, auf denen dieser Code durch- 
laufen wird. Der Compiler selbst hat den 
Assemblercode so optimiert. daB einige Basisblocks 
entstehen (in Abb. 8 durch Linien getrennt). Die aufein- 10 
anderfblgenden Instruktionen 1 und 2 bedeuten bei- 
spielsweise, daB hier ein Read-After- Write- Hazard 
vorliegt: r1 wird zuerst beschrieben und dann erst 
danach zum Vergleich mit 0 gelesen werden. Die 
Abhangigkeit bewirkt, daB keine parallele Ausfuhrung is 
mOglich ist. Die Spalte fur den aktuellen ZyWus bezieht 
sich auf eine superskalare Architektur, die prinzipiell 
parallele Aktionen durchfuhren kann. Die Berechnung 
einer Schleife dauert im Maximalfall 6 Zyklen (bei ange- 
nommenen 2 Zyklen fQr einen Datentransfer zum 20 
Hauptspeicher), so daB fur den then-Part bei 9 durch- 
laufenen Instruktionen 1,5 InstrVZyWus ausgefuhrt wer- 
den. 

Durch eine 1:1-Kopie des Blocks L4 fur den else- 
Part, eine Veranderung der Reihenfolge der Anweisun- 25 
gen und den Ersatz der bedingten Verzweigung durch 
die bedingte Ausfuhrung der Speicherbefehle kann eine 
VergrdBerung des Basisblocks erreicht werden. Das 
zugehOrige Assembleriisting (Fig. 10) zeigt eine 
Beschleunigung einer Schleife auf 4 Zyklen (bei der 30 
Annahme, daS die letzte Verzweigung richtig vorherge- 
sagt wird). 

Der Durchsatz pro Schleife vergrOBert sich fur eine 
superskalare Architektur durch diese MaBnahmen auf 2 
Instr./Takt. Nimmt man nun an daB die s-Paradigmen- 35 
Unit S ein beliebiges Schaltnetz in einem Takt bearbei- 
ten kann. dann benotigt die Implementierung im erfin- 
dungsgemaBen Mikrocomputer hingegen fur alle 
Berechnungen einschlieBlich der bedingten Wertzuwei- 
sung einen Takt, der Durchlauf pro Schleife verkOrzt 40 
sich auf 3 Takte, der Durchsatz betragt 2,66 Instr./Takt. 

Die Fig. 1 1 zeigt die Struktur einer S-Unit S. Die 
Load/Store- Befehle, die der Kommunikation mit dem 
externen Speicher dienen. mussen ebenfalls arithmeti- 
sche Berechnung fur die effektive Adresse vornehmen. 45 
Diese sind hier nicht gezeichnet, obwohl prinzipiell auch 
Addierer aus der S-Unit fur die Adressenaddition nutz- 
bar waxen. 

Die letzte Stufe der hier gezeigten Optimierungen 
behandelt die Verbesserung der Performance durch ein so 
Zusammenfassen zweier Schlerfendurchlaufe zu einem 
(Loop Unrolling) mit nachfolgender Abhangigkertsana- 
lyse und -behebung. Diese Optimierung steigert den 
Durchsatz, falls eine unabhangige, parallele Bearbei- 
tung beider Teilschleifen mflglich ist Daher verwendet 55 
diese Methode zur Beseitigung von Abhangigkeiten ein 
Compile-Time Register Renaming. 

In der Fig. 1 2 ist das Ergebnis nach der Optimie- 
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rung [1] dargestelrt. 

Durch die parallele Bearbertung zweier Schleifen 
sinkt die Bearbeitungszeit auf durchschnittlich 2 Takte 
pro (ehemaliger) einfacher Schleife, wobei als Paralleli- 
sierungsmaB nunmehr 3,75 Instr./Takt ausgefuhrt wer- 
den. Dies gilt fur die superskalare Architektur, wahrend 
der erfindungsgemaBe Mikrocomputer im konkreten 
Modeil des Abschnitts (oben urrter der Uberschrift Rea- 
lisierungsform der Execute-Einheit des erfindungsge- 
maBen Mikrocomputers beschrieben) eine weitere 
Steigerung vorgebracht wird. 

Abgesehen von den AdreBberechnungen werden 
vier Additionen in einer Doppelschleife sowie zwei 
bedingte Zuweisungen gefordert Diese Ressourcen 
sind im Modeil vorhanden, das seinerseits mit Additi- 
ons kapaz rtaten speziell fur Schleifendurchfuhrungen 
ausgestattet wurde. Damit laBt sich der gesamte Block 
der Additionen und Wertzuweisungen in einem Takt 
ausfuhren, wiederum unter Annahme, daB das Schalt- 
netz dies stabil wahrend des Takts durchlaufen lafit. Die 
durchschnrttliche Bearbeitungszeit . pro einfacher 
Schleife liegt dann bei 3 Takten, dies ergibt eine Rate 
von 5 lnstr./Takt. 

Insgesamt ist damit erstmalig die strukturale Pro- 
grammierung in das zentrale Bearbeitungselement der 
prozeduralen Programme, die CPU eingefuhrt Unter 
Beschrankung auf eine Neukonzeption der ausfOhren- 
den Einheit wurde ein konkretes Modeil mit beschrank- 
ten Ressourcen entworfen, wobei gezeigt wurde, daB 
dieses Modeil im Vergleich zu bisherigen superskalaren 
Architekturen eine deutlich verbesserte Performance 
bietet Die Bearbeitungszeiten wurden in den Beispie- 
len urn 25 33 % verkOrzt. 

Patentanspruche 

1. Prozessor mit Pipelining-Aufbau, insbesondere mit 
superskalarer Architektur mit einer konfigurierbaren 
Logikeinheit, einem Instruktionsspeicher (16), einer 
Dekodiereinheit (18) und Interiacemitteln (10, 36), 
gekennzeichnet durch 

einen als Logikeinheit wirkenden Programma- 
ble Structure Buffer (30), 

einen Integer/Address Instruction Buffer (32), 

einem Integer-Register-File (24) zur direkten 
Kommunikation mit datenspeichernden Inter- 
facemitteln (36), 

eine zur Verknupfung der Inhalte des Integer- 
Register-Files (24) mit einer 'Functional Unit 
with Programmable Structures' (34) ausge- 
f unite, multiplexgesteuerte s-Paradigmen Unit 
(s-Unit) (30, 34, 32, 24) mit einer Vielzahl von 
durch Multiplexern verbundenen Datenverbin- 
dungen, 
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wobei die s-Unit (30, 34, 32, 24) zur dynamischen 
Neukonfiguration/Programmierung watirend der 
Laufzert des Programms mit einer programmierba- 
ren Hardwarestruktur versehen ist. und 



wobei die Errtscheidungsbits durch Vergf eiche kon- 
trolffluBbestimmend festgelegt werden, so da (3 bei 
dynamischen Multiplexern (einem Untertyp der 
Arithmetischen Units) in Verbindung mit den Ver- 
gleichern eine optimaJe DatenfluBubersetzung 
erzeugt wird. 



wobei innemalb der Functional Unit (34). 



5 



eine Mehrzanl von Arithmetic-Units (50) zur 
arithmetischen und/oder logischen VerknOp- 
fung zweier Operanden auf zwei Eingangsbus- 
sen zu einem Ergebnis auf einem 10 
Ausgangsbus. 

eine Mehrzanl von Compare-Units (52) mit 
zwei Eingangsbussen und einem Ausgangsbit, 



eine Mehrzanl von Multiplexern (40, 58) mit 
einer Mehrzanl von Eingangsbussen und ein 
oder zwei Ausgangsbussen, die zwischen den 
Arithmetic-Units (50) den Compare-Units (52) 
und dem Register-File (24) vorgesehen sind, so 
sowie 

eine Mehrzanl von Demultiplexern (46) mit 
einem Eingangsbit und einer Mehrzahl von 
Ausgangsbits vorhanden sind, zur Lieferung 25 
des Ergebnisses der Vergleiche (CoU) in einer 
Zielauswahl an entsprechende Arithmetic- 
Units (50) innerhalb der s-Unit 

2. Prozessor nach Anspruch 1 , 30 
gekennzeichnet durch 

ein Floating Point Register File mit erttsprechenden 
Verknupfungen als oder zusatzlich zum Integer 
Register File (24). 

35 

3. Prozessor nach einem der vorangehenden Anspru- 
ch e, 

dadurch gekennzeichnet, daf3 
die Arithmetic Units und Compare Units wahrend 
des Programmlaufs dynamisch fur jeweils einen 40 
Block von Befehlen in ihrer Funktionalitat konfigu- 
rierbar und programmierbar sind. 

4. Vertahren zur Hochgeschwindigkeitsrechnung mrt 
Pipelining-Prozessoren nach einem der vorange- 45 
henden Anspruche. 

dadurch gekennzeichnet, daft 

in einer S-Unit nach moglichst groBer Blockbil- 
dung im Rahmen der Assemblercodierung und so 
Einfuhrung von konditionierten Befehlen, die 
anhand von 'Errtscheidungsbits ausgefuhrt 
Oder Qbersprungen werden, 
die Konfigurationsbits fur die Teileinheiten in 
einem 'Programmable Structure Buffer' zwi- ss 
schengespeichert werden, und bei Bearbei- 
tung des Blocks in die s-Unit geladen werden, 
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FIG 4 Multiplexerstruktur 



n Bits (RAM) . 



k Eingange (Busse) 




1 bzw. 2 Ausgange (Busse) 



RG 6 



DatenfluGubersetzung fur Assemblercode (c) 




DatenfluB 
Konditionalbits 
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FIG 5 

Vergleich von C-Code (a), Assemblercode mit 
Branch (b) und mit bedingten Befehlen (c) 

inta, b; movrO, a; movrO, a; 

if (a > 0) mov r1 , b; mov r1 , b; 

b = a; mov r2, 0; pgt rO, 0, p1 ; Setzen von p1 

else cmp rO. 0; Vergleich movp r2, rO, p1 ; Nur fur a > 0! 

b = 0; ble L1 ; Bedingter Sprung movp r2, 0, /p1 ; fur a < = 0; 

mov r2, rO; Nur fur a > 0! mov b, r2; 
L1 : mov b, r2; 

(a) (b) (c) 



FIG 7 

C-Sourcecode 

inta [LIMIT), b[LIMIT); 
inti, n; 

for (i = 0; i < n; i++) 
{ 

if (a [i] ! = 0) 

b[i] = b[i] + b[i + 1]; 
else 

b [i] = 0; 

} 
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FIG 8 



Assemblercode 
(1 . Optimierung) 



Registerinhalte: 

rO = &b[1] 

r1 =a[i] 

r2 = i ' 4 

r3 = b[ i ] 

r4 = b[i+1] 

r5 = b[i]+b[i+l] 

r6 = n * 4 



Ubel 


Nr. 


Instruction 


Zyklus 


LO: 




mov 
mul 
add 


r2,0 
r6, n, 4 
rO. b, 4 




L1 : 


1 


Id 


r1 , mem (a + r2) 


0 




2 


beq 


r1,0, L3. 


2 


L2: 


3 


Id 


r3, mem (b + r2) 


2 




4 


Id 


r4, mem (rO + r2) 


2 




5 


add 


r5. r4. r3 


4 




6 


St 


mem (b + r2), r5 


5 




7 


imp 


L4 


5 


L3: 


8 


St 


mem (b + r2). 0 




L4: 


9 


add 


r2. r2. 4 


5 




10 


bit . 


r2, r6, L1 


6 



FIG 9 

KontrollfluBgraph fur Assemblierung 
(1. Optimierung) 
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FIG 10 

Assemblercode 
(2. Optimierung) 



FIG 12 

Assemblercode 
(3. Optimierung) 



Registerinhalte: 

rO = &b[1] 
n =a[i] 
r2 = i * 4 
r3 = b[ i] 
r4 = b[i+1] 
r5 = b[i.]+b[i+1] 
r6 = n * 4 
r7= [i+1]*4 
r8 = a[i+1] 
r9 = b[i+2] 



Label 


Nr. 


Instruction 


Zyklus 


LO : 




mov 


r2,0 








mul 


r6, n, 4 








add 


rO, b, 4 




L1 : 


1 


id 


r1 , mem (a + r2) 


0 




3 


Id . 


r3, mem (b + r2) 


0 




4 


Id 


r4, mem (rO + r2) 


0 




5 


add 


r5, r4, r3 


2 




2 


pne 


P1.M.0 


2 




6 


stp 


mem (b + r2), r5 (p1) 


3 




8 


stp 


mem (b + r2), 0 (/pi) 


3 




9 


add 


r2, r2, 4 


3 




10 


bit 


r2, r6, L1 


4 


Label 


Nr. 


Instruction 


Zyklus 


LO: 




■mov 


r2.0 








mov 


r7,4 








mul 


r6, n, 4 








add 


rO, b, 4 




L1 : 


1 


Id 


r1, mem (a+r2) 


0 




21 


Id 


r, mem (a+r7) 


0 




3 


Id 


r3, mem (b+r2) 


0 




4 


Id 


r4. mem (r0+r2) 


0 




24 


Id 


r9, mem (r0+r7 


0 




5 


add 


r5, r4, r3 


2 




25 


add 


r10, r9,r4 


2 




2 


pne 


pl.rl.O 


2 




2 


pne 


p2,r8,0 


2 




6 


stp 


mem{b+r2),r5 (p1) 


3 




26 


stp 


mem{b+r7),r10 (p2) 


3 




8 


stp 


mem{b+r2),0 (/p1) 


3 


4-2] 


28 


stp 


mem (b+r7), 0 (/p2) 


3 


9 


add 


r2, r7, 4 


3 




10 


bge 


r7. r6. L100 


3 




29 


add 


r7, r2. 4 


3 




10 


bit 


r2, r6, L1 


4 



L100: 
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